简介
该论文提出了语义组合网络(Semantic Compositional Network, SCN),其有效利用语义概念(标签)来达到效果比较好的图文生成。
Semantic compositional networks
模型基础
使用CNN提取图像特征,RNN作文字生成。
文字生成的概率公式:
$ \bold X = (x_1, \dots , x_T)$ 表示文字序列,$v$ 为提取的图像特征。
LSTM的转换函数:
图像特征仅在开始输入一次。
语义概念检测
作者将语义标签检测作为多标签分类问题。
首先先从训练集的文字说明中提取常见的 $K \approx 1000$个单词作为分类标签 $y_i = [y_{i1},\dots,y_{iK}] \in \{0, 1\}^K$。
标签$s_i$使用MLP来预测(Ps:这里可能是在CNN的基础上加入MLP),
$s_i$表示每个标签的概率,也可以理解为权重。
优化目标函数:
SCN-RNN
这一步就是将语义标签嵌入到RNN中。
嵌入相关公式:
视频文字生成(video caption)
视频的图像特征包括两部分:均值池化2D CNN提取的图像特征和3D CNN提取的特征,两个特征连接起来作为视频的图像特征。
结果
- 在数据集COCO和Youtube2Text的各个评估指标全面提升。